逻辑回归能摆平二分类因变量,那……不止二分类呢?| 协和八
❉说人话的统计学❉
通过前面的五期「说人话的统计学」专栏,我们已经把逻辑回归的基本理论知识和应用技巧讨论了一遍。相信大家已经了解,逻辑回归能帮助我们解决的,是因变量有且只有两种类别的问题,比如我们之前例子里,一场选举中选民投票给两位候选人中的哪一位。通过逻辑回归,我们可以研究各种自变量与我们关心的二分类因变量之间的相关关系,而这些自变量既可以是二分类的(如性别),也可以是多分类的(如职业),还可以是连续的(如收入、教育程度)。
毫无疑问,这个世界上有不少问题的答案就是非此即彼的,因而逻辑回归的用途很广泛。尤其在医学领域,诸如是否患有某种疾病,某个疗法是否有效,这些几乎就是医学研究和实践的核心问题。运用逻辑回归,我们可以把病人的各种指标作为自变量,从而对疾病的风险因素、药物或手术的适应症等问题进行严谨的研究。
但是,同样也有很多其他我们关心的事情,其结果不一定只有两种情况。比方说,你辗转反侧地琢磨你暗恋多时的女神究竟对你有没有意思,可别傻乎乎地掰起花瓣儿「她爱我、她不爱我、她爱我……」了!谁知道除了这两种情况以外,是不是还有「想和你暧昧」「想拿你当备胎」「想培养你当男闺蜜」之类的其他可能性呢?
换回一张正经脸,实际工作和科研中同样存在类似的多分类(多于两种类别)问题。我们曾经在《数据到手了,第一件事该干啥?》里讲过,多分类变量可以进一步分成两种:名义变量(nominal variable)和定序变量(ordinal variable)。名义变量的不同分类是没有顺序可言的,比如说基因型、疾病的分型等;而有定序变量的不同分类则有逻辑上的顺序,比如客户满意度调查中的选项「非常不满意」「不满意」「一般」「满意」「非常满意」。现在我们的问题是,如果因变量是多分类变量,那么要用怎样的统计学模型研究与其相关的因素?多分类因变量的类别有或无顺序时,方法是否有所不同?
对于第二个问题的答案,也许你已经猜到,对付这两种情形,的确要用到不太一样(但是颇有共通之处)的方法。我们今天就先来讨论一下,当因变量的类别没有顺序(即为名义变量)时,要建立怎样的统计学模型。
既然多分类是二分类的拓展和延伸,那么我们就从已经熟悉的逻辑回归模型出发,来找找灵感:
这条式子大家已经看过许多遍了,右边与线性回归相似,是一堆自变量xi(i=1,2,…,k)的线性叠加(注意xi不仅可以是单个自变量,也可以是若干其他自变量的交互作用,例如x3·x5),对应的回归系数βi(i=1,2,…,k)代表各自对因变量的效应大小,当然还有一个我们通常不太关注的截距β0。而左边呢,p代表了在两个可能的类别中,因变量为某一个事先选定的类别(比如男/女中的女)的概率。
注意式子左边对数里头的分母1-p,它代表了什么?当因变量只有两个可能的类别时,既然p是取其中一个类别(称为类别1)的概率,那么1-p自然就是另一个类别(称为类别2)的概率了。也就是说,我们可以把前面的模型写成
这样一来,我们就更能清楚地看到,这个模型描绘的是因变量取两个类别的概率的比值
现在,我们将踏出关键的一步——类别只有不止两个的时候呢?比如说,5个类别?
在这种情况下,我们5个类别之间两两比较有多少不同的组合?这个可就多了(回忆一下高中时学过的组合数,5选2一共有10种组合),但我们并不需要穷尽所有的组合。一种方便的做法是,选定一个类别固定做分母(比如说类别5,称其为「参考类别」),然后让剩下的类别轮流做分子,因此有
为什么这样就够了呢?首先,有了这四个比例,所有涉及类别5的组合就都照顾到了。其次,如果我们要关心不涉及类别5的组合,比如说
既然如此,我们就依葫芦画瓢,按照一般的二分类逻辑回归模型的样子,写出关于上面的四个比例的模型(注意,为了简明起见,下面我们省去了关于第几个数据点的下标,但是我们仍要记住,对于每一个数据点,自变量x1,x2,x3,… xk取值不同,各等式左边的p类别1,p类别2,…p类别5也会不同):
其中,等式最右边用了求和符号,只是为了把中间一长串的β0,类别1+β1,类别1x1+β2,类别1x2+…+βk,类别1xk之类写得简单一些,而且对后续的表述会有帮助。
很容易看到,这几条式子与二分类的逻辑回归模型很相似,这样的一组模型,称为「多项逻辑回归」(multinomial logistic regression)。需要着重点出的是,在多项逻辑回归里,因变量除了参考类别以外的每一个类别,都拥有自己的一套回归系数,因此,大家会注意到,回归系数不像以前那样只有一个对应自变量xi的下标i。在本文中,各个β下标的第一部分依然表明该回归系数对应于哪一个自变量,而第二部分则表示该回归系数对应的是因变量的哪一个类别(在上面的式子中用红色标出) 。比如说,β2,类别3对应于自变量x2和类别3,它的意义是,当自变量x2增长一个单位、而其他自变量保持不变时,因变量取类别3的概率与取类别5的概率之比例的对数值(或称两者的分对数)
根据上面的模型,我们还可以进一步推出,对于任何一个数据点,如果我们知道了它所有自变量x1,x2,x3,… xk的取值,那么它的因变量取各个不同类别的可能性(概率p类别j)是多少。根据对数的定义,前面的四条式子可以变成:
别看右边e的幂那么一大堆很复杂的样子,现在我们关心的是p类别1,p类别2,p类别3,p类别4,p类别5,所以其他的都可以看成是常数。此时,简单做个移项,把左边的分母都挪到右边去,我们就能发现,这四条式子只不过是类似于y=0.3x,z=1.2y 那样简单的一次方程组而已:
p类别1+p类别2+p类别3+p类别4+p类别5=1
这下好了,5个未知数,5个一次方程,我们可以解出:
看着满眼的符号很吓人吧?其实都是纸老虎,仔细看看其实你会发现,翻来覆去都是那几项,而且计算机和统计学软件会帮我们打点一切。关键在于,对于任何一个数据点,把自变量x1,x2,x3,… xk的具体数值代入到上面的式子里,我们就能用各个回归系数βi,类别j(i=1,…,k; j=1,…,m)表示出p类别1,p类别2,p类别3,p类别4,p类别5。这个数据点的因变量y是哪个类别,那么相应的那一个𝑝类别j就是这个数据点的似然函数。对所有数据点都这么做,然后把各数据点的似然函数乘起来,我们就能得到整个样本基于上述模型的似然函数。
有了似然函数,我们就可以像在线性回归和二分类逻辑回归里那样,用极大似然估计方法来找出回归系数(关于极大似然估计,可回顾《回归线三千,我只取这一条》和《逻辑回归的袅娜曲线,你是否会过目难忘?》)。换言之,给定一个样本的各个数据点,似然函数便是关于所有回归系数的一个函数,极大似然估计就是在各个回归系数的组合中,寻找使得似然函数取值最大(即最可能)的那一组,并以其作为这些回归系数的估计值。这一过程与线性回归和二分类逻辑回归在概念上是相同的,具体的实现也都交给统计软件,在此就不再重复了。在下一集文章里,我们将用一个实例来进一步巩固对多项逻辑回归的理解,并着重讨论回归系数的解读及有关统计检验。
作者:张之昊
编辑:鹅不食草
质控:六月雪叶
* 阅读本系列文章可回复关键词「说人话的统计学」
干货
第 1 章 高屋建瓴看统计
第 2 章 算术平均数与正态分布
第 3 章 t 检验:两组平均数的比较
第 4 章 方差分析(ANOVA):多组平均数的比较
多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!
第 5 章 线性回归:统计建模初步
线性模型生病了,你懂得怎样诊断吗?
「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」
第 6 章 广义线性模型:统计建模进阶
(未完,更新中)
你在 或者不在 需要逻辑回归来算
逻辑回归的袅娜曲线,你是否会过目难忘?
自检
番外篇
张之昊
2010 年本科毕业于清华大学生命科学学院,获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间,他利用功能核磁共振成像(fMRI)技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系,曾以第一作者身份在 Nature Communications, Current Biology 等顶尖学术杂志上发表多篇论著,并受到 BBC 新闻、CBC、洛杉矶时报、果壳网等知名媒体的关注和报道。他还曾任耶鲁大学 StatLab 数据咨询师(Data Consultant),为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学(UC Berkeley)哈斯商学院市场营销系担任博士后研究学者(Postdoctoral Scholar),致力于运用神经科学、经济学模型、自然语言处理及大数据方法研究消费者行为与决策。
田菊
2010 年本科毕业于清华大学工程物理系,获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型,曾以第一作者或共同作者身份在 Nature,Cell, Neuron,Nature Neuroscience,Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家( Data Scientist ),运用大数据和人工智能解决网络诈骗、虚假新闻和不良广告等信息安全相关问题。